Mesures de discrimination et leurs applications en apprentissage inductif. (Discrimination measures and theirs applications in inductif learning)

نویسنده

  • Thanh Ha Dang
چکیده

Nowadays, the available data become more and more voluminous and diverse by nature : vague data, missing data, numerical or symbolic data can be encountered. However, users are more interested in the knowledge which can be extracted from the data, than by the data themselves. Vis-à-vis the great quantity of available data, the effective processing of data is very cumbersome. In this thesis we adopt an approach of knowledge extraction from data based on inductive learning, more precisely by using the decision tree technique. In general, the purpose of a system constructed by inductive learning is to discriminate the individuals belonging to different classes. Its quality depends on its discrimination power which is acquired during the learning phase through the data. In particular, an algorithm of construction of a decision tree works by successively evaluating the discrimination power of the attributes. In this thesis, we investigate the measures of discrimination, both classical and fuzzy, and their applications in inductive learning. On the one hand, we consider discrimination measures for the construction of decision trees. We begin by studying these measures following an axiomatic approach and develop a new model which permits to characterize fuzzy measures of discrimination. Then, we propose to use these measures during the various stages of construction of fuzzy decision trees. On the other hand, we study the use of these measures of discrimination during other steps of the learning process. Firstly, we examine the classifier evaluation process and propose an evaluation criteria based on the concept of discrimination power. Next, we consider the missing data problem and propose a new technique of imputation by restoring the discrimination power of attributes. This work is validated on conventional data and is applied to some real problems such as email classification and human-computer interaction traces classification.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Apprentissage semi-supervisé de fonctions d'ordonnancement

Résumé. Nous présentons dans cet article un algorithme inductif semi-supervisé pour la tâche d’ordonnancement bipartite. Les algorithmes semi–supervisés proposés jusqu’à maintenant ont été étudiés dans le cadre strict de la classification. Récemment des travaux ont été réalisés dans le cadre transductif pour étendre les modèles existants en classification au cadre d’ordonnancement. L’originalit...

متن کامل

Spark Heat Transfer Measurements in Flowing Gases

Ë partir de techniques basŽes sur lÕinterfŽromŽtrie holographique, lՎnergie totale transfŽrŽe par une Žtincelle aux gaz environnants a ŽtŽ mesurŽe en faisant varier la gŽomŽtrie des Žlectrodes de la bougie dÕallumage, la vitesse des gaz, la pression et le temps de charge de la bobine, cette dernire Žtant un modle standard pour automobile. Pour les diffŽrentes combinaisons et valeurs des para...

متن کامل

Choix d'une mesure de proximité discriminante dans un contexte topologique

Résumé. Les résultats de toute opération de classification ou de classement d’objets dépendent fortement de la mesure de proximité choisie. L’utilisateur est amené à choisir une mesure parmi les nombreuses mesures de proximité existantes. Or, selon la notion d’équivalence topologique choisie, certaines sont plus ou moins équivalentes. Dans cet article, nous proposons une nouvelle approche de co...

متن کامل

Comparaison de stratégies de discrimination de masses de véhicules automobiles

RÉSUMÉ. L’industrie automobile utilise aujourd’hui les enquêtes en clientèle, notamment, pour le dimensionnement en fiabilité de ses composants. Le problème type du classement par masses de véhicules à partir de mesures d’accélérations et de vitesses est traité. Une méthode de discrimination optimale pour ce problème est construite en considérant 4 niveaux : choix de l’espace de recherche (séle...

متن کامل

Particle methods: An introduction with applications

Interacting particle methods are increasingly used to sample from complex high-dimensional distributions. They have found a wide range of applications in applied probability, Bayesian statistics and information engineering. Understanding rigorously these new Monte Carlo simulation tools leads to fascinating mathematics related to Feynman-Kac path integral theory and their interacting particle i...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007